【源头活水】OneNet: End-to-End One-Stage Object Detection

人工智能前沿讲习 2022-05-21

收录于合集 #源头活水 308个

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注。

作者：知乎—孙培泽

地址：https://www.zhihu.com/people/sun-pei-ze-92

本文介绍一下我们最近的工作：OneNet: Towards End-to-End One-Stage Object Detection

现有的one-stage detectors的label assign，都只用到了位置信息(location)，如box IoU(e.g.,YOLO, RetinaNet), point distance(e.g.,FCOS, CenterNet)。但是目标检测是分类(classification)和定位(location)的联合任务，只考虑位置信息的label assign和网络的优化目标存在着非常大的misalignment，导致冗余的高分检测框，从而需要NMS后处理。

我们提出了OneNet，首次实现了end-to-end dense detector without NMS。OneNet的样本匹配策略是Minimum Cost Assign: cost定义为样本与gt的分类距离(classification cost)和位置距离(location cost)之和; 正样本是所有样本中和gt的cost最小的样本，其他都是负样本。我们发现，classification cost是去除NMS的关键；没有classification cost会导致冗余的高分检测框，从而需要NMS后处理。OneNet在标准的COCO benchmark上达到了37.7 AP / 50 FPS，35.0 AP / 80 FPS。

Paper: https://arxiv.org/abs/2012.05780

Code: https://github.com/PeizeSun/OneNet

图1 不同的样本匹配策略

简介

现有的end-to-end的目标检测模型都是two-stage或者multiple-stage (如: DETR，Deformable DETR，Sparse R-CNN)。这些模型的检测性能很好，但是由于各种复杂的layer的存在不容易部署，而one-stage在工业应用中有着更大的潜力。我们提出了OneNet：end-to-end one-stage object detector。

OneNet的优势是：

整个网络是全卷积的，没有各种非常规的layer（比如GN，RoI-Align，Dynamic Conv）。
无需Non-Maximum Suppression(NMS)后处理或者self-attention模块。
样本匹配策略是简单的Minimum Cost，无需启发式规则或者复杂的最优二分匹配。

cost定义为样本与gt的classification cost和location cost之和。

我们发现，classification cost是实现end-to-end的关键。而回顾之前的dense detector样本匹配策略，都是只有location cost，如box IoU(e.g.,YOLO, RetinaNet), point distance(e.g.,FCOS, CenterNet)。只有location cost的样本匹配策略会导致冗余的高分检测框(图4)，从而需要NMS后处理去除这些冗余框。

OneNet

输入图片(H×W×3)，backbone产生feature map(H/4×W/4×C)，head预测分类(H/4×W/4×K)和回归(H/4×W/4×4), 最后的输出直接取top-k高分框。

图2 OneNet pipeline

Backbone: Backbone是先bottom-up再top-down的结构。其中，bottom-up结构是resnet，top-down结构是FPN。我们实现了两种FPN，一种是上采样中引入deformable conv，为了追求较高检测精度；一种是普通conv，方便工业部署。

Head: Head是两个并行的conv，分类conv预测类别，回归conv预测到物体框的4个边界的距离。

Output: 直接取top-k高分框，没有NMS，也没有类似CenterNet中max-pooling的操作。

样本匹配策略：OneNet的样本匹配策略是一种基于minimum cost的异常简单的方法，没有启发式规则，也没有最优二分匹配。cost定义为样本与gt的classification cost和location cost之和，具体定义是：

L_cls是分类focal loss， L_l1和L_giou是预测框和gt框归一化后的l1 loss和giou loss。lambda是系数。

对每个gt，正样本是和gt的cost最小的样本，其他都是负样本。伪代码如下：

# C is cost matrix, shape of (nr_sample, nr_gt)C = cost_class + cost_l1 + cost_giou

# Minimum cost, src_ind is index of positive sample_, src_ind = torch.min(C, dim=0)tgt_ind = torch.arange(nr_gt)

实验

图3 only location cost(1st row)和location cost+classification cost(2nd row)的正样本。实际正样本是一个点，图中被高亮圈突出，以便更好的可视化。

图3给出了只考虑location cost和综合考虑location cost+classification cost的正样本。只考虑location cost时，正样本是离物体框中心最近的样本点。这样的正样本有利于定位，但是对分类并不友好，如：第一个case的人体姿态导致正样本点落在人体边缘，这并不是较优的选择。综合考虑location cost+classification cost的正样本，一般落在物体的更具辨别性的区域，如：人体内部，斑马头部。这样的正样本有利于分类，同时对定位也较为友好（毕竟正样本点依然在物体框内部）。

表1 Effect of label assignment

表1中的4个实验都是one-to-one的样本匹配策略。其中第一个实验的location cost是指feature map中point的位置到物体gt center的位置的距离(可以理解为CenterNet只有高斯极值点为1，其他都是0)。从表1可以看出，classification cost是去掉NMS的关键。而回想绝大多数的样本匹配策略，如，box IoU，point distance，都是只考虑了location cost。第三个实验如此拉胯的原因可能是因为predicted box是变化的，会导致正负样本来回横跳，训练低效。

图4给出了表1中的4个实验的可视化图，可以看到，没有classification cost的模型会预测出冗余的高分检测框，需要NMS后处理来去除这些冗余框。而引入classification cost的模型消除了冗余框。

图4 表1中的4个对比实验的可视化图

表2 给出了OneNet和CenterNet的比较。OneNet在检测精度和推理速度都展现出comparable的性能。这证明OneNet有效去除了NMS，成功实现了end-to-end。

表2 OneNet和CenterNet的比较

讨论

一年前，在anchor-free和label assignment的那波研究中，曾经考虑过one-to-one的样本匹配策略，表1第一行的实验也做过了，性能也是只有AP 20+(加上NMS 30+)。当时自我解释的原因是：某一位置如果分类是1，那么这一位置的周围位置很难突变成0。

最近DETR出现了，在样本匹配中同时考虑location cost和classification cost，成功做出了end-to-end two-stage(multiple-stage)。这给人启发end-to-end one-stage是不是也需要引入classification cost。表1第一行的实验简单地加上classification cost（即表1第二行实验）竟然神奇地work了！甚至optimal bipartite matching也不需要，直接全图找最小cost的样本就行。可能optimal bipartite matching也可以做，但是在dense detector中太慢了。

我们也进一步验证了classification cost是否对sparse detectors的end-to-end也至关重要。从表3可以看出，classification cost也是sparse detectors实现end-to-end的关键。

表3 Effect of label assignment on sparse detectors

我们的工作提出了很多较为本质的问题：为什么引入classification cost能够使得相邻的feature map points的分类发生突变？样本之间的交互（例如max-pooling, self-attention）对于e2e是否必须？这些问题都值得后续深入研究。

彩蛋

设计OneNet的初衷是推广end-to-end detectors的工业应用。我们会在接下来的时间实现OneNet的部署代码，加入git repo中，欢迎大家届时关注和使用。

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“源头活水”历史文章

请点击文章底部“阅读原文”查看

分享、在看，给个三连击呗！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

【源头活水】OneNet: End-to-End One-Stage Object Detection

基于认知图谱实现多跳阅读

A Little Introduction of Neural ODE

PDE遇见深度学习

Seesaw Loss：一种面向长尾目标检测的平衡损失函数

预测未来-随机视频生成

从Thinker到Evolver：对可演化AI芯片的探索

探讨旋转目标检测中anchor匹配机制问题

从频域角度重新思考注意力机制——FcaNet

NeurIPS 2020：一叶知秋 —— 基于“单目标域样本”的领域自适应方法

关于attention机制的一些细节的思考

Subgraph Neural Networks

Sparse R-CNN：简化版fast rcnn

宽度学习：原理与实现

图神经网络预训练模型

Rethinking Self-Attention in Transformer Models

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

生成图片，分享到微信朋友圈

【源头活水】OneNet: End-to-End One-Stage Object Detection

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡